9.6.1 행동이 아닌 보상 함수(Reward Function)의 추론